Robots.txt 文件是網站用來與網絡爬蟲和其他網絡機器人通信的標準。了解您的新虛擬主機是否需要 robots.txt 文件可能很難估計。本文旨在強調 robots.txt 文件的工作原理以及您是否需要它們來進行網站優化。
什么是 Robots.txt 文件
在Google Bots等網絡爬蟲搜索您的網站內容之前,它們會搜索 robots.txt 文件。該文件將包含關于網絡爬蟲可以訪問和不能訪問哪些文件和頁面的具體說明。搜索引擎(例如 Google)使用此文件來映射您的網站內容,從而決定您的網站將如何排名。
如何使用 Robots.txt 文件?
防止服務器節流:當網絡爬蟲掃描沒有 robots.txt 文件的網站時,它將遍歷所有頁面、所有腳本和所有圖片。在此期間,這可能會對您網站的性能產生負面影響。您的 Web 服務器將忙于處理來自爬蟲的請求,這可能會導致性能下降。這可能會導致您的用戶加載網頁的速度變慢。通過阻止網絡爬蟲訪問某些不需要為網站優化建立索引的腳本和圖像來防止這種情況。這將確保爬蟲只掃描您想要索引的頁面。
提高您的搜索引擎排名:搜索引擎使用 robots.txt 文件對網站進行排名。優化您的 robots.txt 文件可確保良好的 SEO 實踐增加您獲得排名的機會。
阻止出現在搜索結果中的圖像或網頁:您可能專注于在您的網站上銷售照片。如果搜索引擎在圖像搜索中為您的圖像編制索引,人們可能會竊取您的內容供自己使用,而無需向您支付版稅。為防止這種情況,您可以阻止搜索引擎訪問您的圖像,這有助于防止未經授權使用您的作品。
我需要 Robots.txt 文件嗎?
大多數網站使用 robots.txt 文件,但并非每個網站都需要一個。了解您是否需要 Robots.txt 文件很重要。以下是決定時要遵循的一些準則。
什么時候需要使用robots.txt
- 您的網站可能包含您不希望搜索引擎對其進行排名的內容。使用 robots.txt 文件可以阻止此內容被編入索引。
- 如果您阻止爬蟲訪問您的頁面,廣告可能會面臨挑戰。您不想阻止廣告抓取工具,因為這會阻止您的網站被刊登廣告。
- 您可能仍在您的網站上工作,因此您不希望它在完成之前在搜索引擎中排名。您可以在 robots.txt 文件中完全阻止網絡爬蟲。
我什么時候不需要 Robots.txt?
- 如果您不需要阻止某些頁面出現在搜索排名中,則不需要 robots.txt。
- 您希望所有頁面都在搜索引擎中編入索引
Robots.txt 文件示例
為了說明 Robots.txt 文件是如何工作的,這里有幾個例子。
1.允許完全訪問
需要時,您可以向網絡爬蟲表明它們具有完全訪問權限。大多數網絡爬蟲將掃描所有文件夾。
用戶代理:* 允許:
2.允許訪問某些文件夾
如果您想向網絡爬蟲表明我可以訪問某些文件夾,您可以通過定義文件夾目錄來實現。
用戶代理:* 允許:/目錄/
3. 阻止所有訪問
使用它來阻止網絡爬蟲訪問您服務器上的所有文件。這將對搜索引擎排名產生負面影響,因為搜索引擎無法掃描您的網站,因此不會索引任何頁面。
用戶代理:* 不允許:
4. 阻止訪問文件夾
使用它來阻止網絡爬蟲訪問某些文件夾。這對于阻止訪問包含個人信息的敏感文件夾很有用
用戶代理:* 不允許:/文件夾名稱/
3. 阻止對文件的訪問
使用它來阻止網絡爬蟲訪問您網站中的某些文件或頁面。這對于您不想排名的頁面很有用。
用戶代理:* 不允許:/filename.html
6. 阻止對某些爬蟲的訪問
這將阻止對某些爬蟲的訪問,但是未定義的爬蟲仍然可以訪問。
用戶代理:爬蟲名稱 不允許: /
7.允許訪問某些爬蟲
這將向某些爬蟲指示允許他們訪問哪些部分。只有定義的爬蟲才會讀取它。
用戶代理:爬蟲名稱
不允許:
“User-Agent: *”表示本節適用于所有機器人。使用“User-Agent: Googlebot”確保此部分僅適用于 Google Bots。
“允許:”部分向網絡爬蟲指示允許它們訪問和索引哪些頁面或文件夾。這很有用,因為它允許您指定需要索引的某些頁面,以確保爬蟲專注于這些頁面。
“禁止:”部分向機器人指示不允許它們訪問的頁面或文件夾。這可以用來防止
如何制作 robots.txt 文件
為您的新虛擬主機創建一個 robots.txt 文件非常簡單,它為 Google 機器人等爬蟲提供了說明。這可以通過打開文本編輯器(如記事本)來完成。包括有關每個部分適用于哪個用戶代理以及可以或不能訪問哪些文件或文件夾的信息。
我應該將 robots.txt 文件放在哪里?
當網絡爬蟲掃描您的網站時,它會首先查找 robots.txt 文件。這是通過獲取您的網站 url 并在其末尾添加 (/robots.txt) (www.monsterhost.com/robots.txt) 來完成的。添加 robots.txt 文件時,務必確保將其放在與 index.html 文件相同的目錄中。請務必記住,您的文件必須命名為“robots.txt”,而不是“Robots.txt”或“robot.txt”。
robots.txt 是安全功能嗎
否 robots.txt 文件不是安全功能,無論 robots.txt 內容如何,??任何人都可以訪問未設置適當安全性的文件夾。robots.txt 文件是網絡爬蟲遵循的簡單文本文件,但絕不會阻止網絡爬蟲掃描受限目錄。